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摘 要: [目的 /意义 ] 好 的 关键 技术 识别 方法 能 够 更 好 地 为 各 层 各 级 的 关键 技术 识别 、 预 测 和 研发 提供 支撑 。 [ 方法 /过 
程 ] 提 出 基于 BERT-LDA 模型 的 关键 技术 识别 方法 ,通过 将 BERT 与 LDA 相 结合 ,以 弥补 单一 使 用 LDA 主题 模型 
缺乏 上 下 文 语义 信息 的 缺陷 ,并 以 农业 机 器 人 为 例 进行 实证 研究 。 具 体 包 括 以 下 过 程 :四 基于 python 构建 BERT 
语义 特征 向 量 和 LDA 主题 特征 向 量 , 将 其 在 高 维 空间 进行 向 量 拼接 ,利用 自 编码 器 学 习 连 接 向 量 的 低 维 潜在 空间 

= 表示 ;@ 在 潜在 空间 表示 上 使 用 K-means 算法 实现 语义 关联 聚 类 ,得 到 二 维 聚 类 效果 图 及 关键 技术 主题 词 云图 ; 

> 0 图 进行 关键 技术 判定 ;@ 在 农业 机 器 人 技术 领域 ,与 基于 德 温 特 TI 专利 软件 的 专利 分 析 结果 和 《中 国 制造 2025》 

GD 重点 领域 技术 路 线 图 中 农业 装备 关键 共性 技术 清单 对 比 ,实证 本 方法 的 有 效 性 。[ 结果 /结论 ] 研究 表明 :BERT- 

Je LDA 模型 提高 了 主题 聚 类 的 连贯 性 及 细 粒 度 划分 的 精准 度 ; 具 有 很 好 的 关键 技术 识别 精准 率 和 召回 率 ; 对 识别 的 

CO 不 同 数 据 库 和 出 版 类 型 的 文献 数据 集 具 有 较 好 的 包容 性 与 兼容 性 ,适应 性 强 ;可 广泛 应 用 于 各 类 关键 技术 的 识 
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1 Saj 区 国内 外 众多 学 者 开展 了 关键 技术 识别 与 预测 研 


Se 
“(B21 世纪 以 来 ,全 球 科 技 创新 进入 空前 密集 活跃 
期 6 新 一 轮 科技 革命 和 产业 变革 正在 重 构 全球 创 新 版 
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F ,并 取得 了 一 定 的 研究 成 果 。 基 于 指标 评估 专利 数 
据 文本 挖掘 等 方法 的 技术 识别 与 预测 研究 ,在 一 定 程 
度 上 为 世界 各 国 的 科技 创新 指引 发 展 道路 。 随 着 科技 


图 G 重 塑 全 球 经 济 结构 。 科 学 技术 深刻 影响 着 国家 前 
途 符 运 、 人 民生 活 福 社 。 习 近 平 总 书记 在 两 院 院 士 大 
会 中 提出 “以 关键 共性 技术 .前沿 引领 技术 .现代 工程 
技术 .颠覆 性 技术 创新 为 突破 口 ,敢于 走 前 人 没 走 过 的 
路 ,努力 实现 关键 核心 技术 自主 可 控 , 把 创新 主动 权 、 
发 展 主动 权 牢 牢 掌握 在 自己 手中 。” 当 前, 我国 科技 创 
新 在 视野 格局 .创新 能 力 、 资 源 配置 、 体 制 政策 等 方面 
的 短 板 日 渐 突显 ,关键 核心 技术 受制 于 人 的 局 面 没有 
得 到 根本 性 改变 。 在 新 一 轮 的 科技 革命 中 ,和 欲 把 握 大 
势 . 抢 占 先 机 大 力 发 展 关键 核心 技术 努力 成 为 世界 
主要 科学 中 心 和 创新 高 地 ,针对 关键 技术 的 识别 与 预 
测 的 相关 研究 变 得 尤为 重要 。 


情报 需求 的 深化 ,对 关键 技术 识别 技术 的 创新 优化 提出 
了 更 严格 的 要 求 。 鉴 于 此 ,笔者 提出 一 种 基于 BERT- 
LDA 的 关键 技术 识别 方法 ,以 期 提高 主题 的 连贯 性 及 细 
粒度 划分 的 精准 度 ; 在 确保 关键 技术 识别 的 召回 率 和 精 
准 率 的 基础 上 ,以 增强 关键 技术 识别 对 文献 出 版 类 型 的 
包容 性 ,不 只 如 TI( Thomson Innovation ) 一 样 局 限于 从 专 
利文 献 中 进行 关键 技术 识别 , 仍 可 适用 于 不 同 数据 库 和 
出 版 类 型 的 同 语种 科技 文献 摘要 进行 关键 技术 识别 , 必 
要 时 可 将 其 整合 ,兼顾 客观 性 、 时 效 性 。 


2 _ 相关 文献 回顾 
国内 外 对 关键 新 兴 技 术 、 共 性 技术 、 核 心 技术 、 突 
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破 性 技术 等 的 关键 技术 识别 研究 已 具有 一 定 的 基础 ， 
主要 分 为 基于 指标 评估 、 基 于 专利 网 络 和 基于 文本 挖 
气 的 三 大 类 关键 技术 识别 方法 。 
2.1 基于 指标 评估 的 识别 方法 

基于 指标 评估 的 识别 方法 是 通过 梳理 关键 技术 的 
定义 及 特征 ,构建 多 指标 评估 的 研究 框架 来 识别 关键 
技术 。 

其 中 ,基于 指标 评估 的 关键 技术 识别 方法 较 早 受 
到 学 者 的 关注 。 例 如 :S，Altuntas 等 通过 综合 考虑 技 
术 生 命 周 期 .扩散 速度 、 专 利 权 和 扩展 潜力 4 个 指标 评 
WÉR; Park 等 根据 专利 的 增长 潜力 影响 
力 和 可 销售 性 计算 前 景 指数 ,并 用 于 识别 用 户 界面 和 
用 户 体验 技术 领域 的 核心 专利 ;CLee 等 提出 使 用 
多 项 专利 指标 的 机 器 学 习 方 法 ,用 于 识别 早期 阶段 的 
MSHBORO SX. Liu 等 在 整合 持久 性 .社区 性 和 增长 性 
的 起 础 上 提出 三 维 评估 框架 来 系统 评估 新 兴 技 术 "; 


性 外 部 性 、 集 成 性 、 超 前 性 4 个 维度 ,识别 共性 技 
术 加 ; 杨 武 等 提出 基于 专利 数据 利用 指标 体系 探索 核 
避 接 术 的 识别 方法 ”; 宋 欣 娜 等 通过 构建 新 括 性 持久 
性 社区 性 和 增长 性 的 识别 指标 体系 ,并 引入 新 兴 分 数 
MÄDA 主题 模型 ,分 别 得 到 新 兴 术 语 和 新 兴 主 题 ,使 
用 擅 标 验证 法 验证 其 识别 效果 口 。 
>< 基 于 指标 评估 的 识别 方法 的 关键 是 通过 对 关键 技 
术 购 特征 进行 系统 分 析 , 整 合 专利 数据 的 多 项 指标 , 形 
成 关键 技术 指标 评估 体系 ,具有 一 定 的 科学 性 和 有 效 
性 6 部 分 指标 的 评估 规则 需 经 由 专家 根据 技术 特征 设 
定 , 且 需 要 专家 参与 部 分 指标 的 评分 ,识别 结果 过 多 依 
赖 不 同 专家 的 不 同 认 知 和 评判 ,识别 结果 的 客观 性 有 
待 提升 。 
2.22 ”基于 专利 网 络 的 识别 方法 

专利 网 络 分 析 是 将 社会 网 络 理论 与 专利 分 析 相 结 
合 , 借 助 引用 ` 共 引 .耦合 等 关联 算法 ,对 技术 领域 的 演 
化 网 络 及 知识 流 网 络 进行 分 析 的 一 种 方法 ,主要 是 基 
于 专利 引用 网 络 构建 关键 技术 的 识别 框架 。 

例如 :T.S，Cho 等 通过 分 析 专 利 引用 网 络 ,根据 
美国 专利 局 在 1997 -2008 年 间 授予 台湾 的 专利 ,识别 
出 5 项 核心 技术 和 新 兴 技 术 ”;M.，H.， C. Ho 等 基于 
引文 关系 构建 专利 引文 网 络 , 通 过 路 径 分 析 识 别 出 多 
次 被 引 的 核心 专利 ” ;0，Kuusi 等 利用 专利 耦合 网 络 
预测 纳米 技术 领域 的 突破 性 技术 '"" ;H. You 等 提出 基 
于 专利 和 专利 子 类 间 知 识 转移 的 两 层 引文 网 络 模型 ， 


并 对 技术 发 展 趋势 进行 预测 的 方法 ,通过 对 相干 光 发 
生 器 分 类 专利 进行 实证 研究 ,识别 具有 更 大 发 展 潜力 
的 关键 性 技术 '" ; 李 蓓 等 基于 专利 引用 耦合 聚 类 构建 
新 兴 技 术 识别 模型 及 其 相关 指标 体系 ,并 对 纳米 技术 
领域 的 新 兴 技 术 进 行 识别 ; 杨 艳 萍 等 基于 专利 共 被 
引 聚 类 和 专利 组 合 分 析 构 建 关键 技术 识别 分 析 框 
m, 

基于 专利 网 络 识别 方法 的 关键 是 通过 专利 文献 之 
间 的 引用 关系 构建 引用 网 络 ,识别 技术 领域 的 关键 技 
术 。 该 方法 在 一 定 程度 上 避免 了 专家 主观 认 知 差异 对 
识别 结果 的 影响 ,可 较 客 观 地 识别 关键 技术 ,但 过 多 地 
依赖 于 实际 的 专利 引文 数据 。 一 项 专利 从 申请 到 公开 
再 到 授权 有 一 定 的 周期 , 施 引 专 利 再 经 过 申请 、 公 开 、 
授权 又 需要 一 定 的 时 间 , 这 使 得 专利 文献 之 间 的 引证 
关系 存在 一 定 的 滞后 性 ,致使 学 者 质疑 基于 专利 网 络 
及 其 引用 特征 进行 关键 技术 识别 结果 的 有 效 性 和 准确 
性 。 
2.3 ”基于 文本 挖掘 的 识别 方法 

基于 文本 挖掘 的 关键 技术 识别 方法 是 基于 论文 和 
专利 文献 等 文本 内 容 , 通 过 文本 聚 类 .SAO 结构 .LDA 
(Latent Dirichlet Allocation ) 主题 模型 等 自然 语言 处 理 
技术 方法 挖掘 深层 次 的 技术 隐 性 知识 。 

文本 挖掘 方法 逐渐 受到 学 者 的 重视 ,是 目前 具有 
最 好 识别 效果 的 方法 。H. Chen 等 利用 主题 模型 生成 
主题 年 份 权重 矩阵 和 基于 主题 的 趋势 系数 序列 ,定量 
估计 各 个 关键 技术 主题 的 发 展 趋势 ,并 评价 其 对 整个 
领域 专利 活动 的 贡献 程度 ;C. Yang 等 利用 半 监 督 
主题 聚 类 模型 整合 技术 领域 知识 ,对 3D 打印 行业 技术 
分 析 , 通 过 区 分 新 主题 和 传统 主题 识别 新 兴 技 术 … ; 
Y. Zhou 等 提出 一 种 融合 数据 增强 和 深度 学 习 方法 的 
新 方法 ,以 克服 深度 学 习 在 预测 新 兴 技 术 时 缺乏 训练 
样本 的 问题 ' ; 李 欣 等 利用 文本 挖掘 抽取 专利 权利 要 
求 项 中 的 SAO 结构 ,基于 改进 的 语义 相似 度 算法 对 专 
利文 本 进行 聚 类 ,结合 专利 地 图 和 语义 分 析 识别 新 兴 
TOR 7 ; 周 源 等 提出 一 种 基于 机 器 学 习 主 题 模 型 的 新 
兴 技 术 识 别 方法 ,通过 对 技术 领域 全 样本 的 论文 与 专 
利 数据 的 高 通 量 融 合 处 理 , 挖 掘 论文 与 专利 的 语义 信 
息 ,从 而 提高 技术 识别 的 全 面 性 与 颗粒 度 一 致 性 "*，; 
陈 伟 等 建立 基于 专利 文献 分 析 的 关键 共性 技术 识别 框 
架 , 运 用 文本 挖掘 和 技术 演化 分 析 方 法 ,获取 特定 领域 
的 关键 共性 技术 。 基 于 文本 挖掘 的 识别 方法 关键 
是 利用 数据 控 据 和 文本 分 析 等 对 文本 内 容 进 行 共 现 、 
聚 类 分 析 ,能 更 客观 .精准 地 识别 关键 技术 。 该 类 现 有 
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的 研究 方法 往往 存在 关键 词 之 间 缺 少 语义 关联 ,忽略 
词语 的 上 下 文 语义 ,难以 抽取 确切 的 关键 技术 主题 , 识 
别 结果 可 解释 性 弱 的 问题 。 

综 上 所 述 , 关 键 技术 识别 的 现 有 研究 方法 多 样 .成 
果 丰 硕 。 基 于 指标 评估 和 专利 网 络 的 技术 识别 方法 ， 
大 多 需要 相关 领域 专家 的 参与 , 借 由 专家 的 专业 知识 
和 经 验 对 技术 的 定性 分 析 来 开展 技术 识别 工作 ,在 识 
别 过 程 中 存在 主观 性 强 .时效 性 差 .成 本 高 等 间 题 。 基 
于 文本 挖掘 的 识别 方法 通过 多 源 文本 数据 的 分 析 实 现 
关键 技术 识别 的 目的 ,该 类 方法 具有 可 重复 性 强 .成 本 
高 .客观 准确 的 优势 ,但 仍 存在 缺乏 语义 关联 .识别 结 
果 可 解释 性 弱 的 问题 ,需要 有 效 体现 语义 关联 提高 识 
别 结果 的 解释 性 的 关键 技术 识别 方法 。 
2x4= BERT 模型 
近年 来 ,自然 语言 处 理 模型 在 文本 语义 分 析 上 取 
EO 较 好 效果 。Google 公司 在 2018 年 推出 由 Devlin 
jt 等 创建 并 发 布 的 BERT ( Bidirectional Encoder 
Rep sentations from Transformers) 模型 。BERT 模型 是 
一 种 深度 双向 的 .无 监督 的 语言 表示 ,是 一 种 仅 使 用 纯 
区 下 语料库 进行 预 训练 的 模型 2 。 而 传统 的 模型 是 
琉 逢 训练 的 单 向 的 .从 左 到 右 的 。 双 向 的 好 处 是 ,该 
模型 可 以 更 好 地 学 习 语词 之 间 的 关系 ,检测 语言 的 细 
微 差别 。 
.全 BERT 模型 在 文档 语义 研究 中文 分 词 .词性 标注 、 
售 儿 体 识别 .主题 抽取 等 领域 应 用 广泛 ,在 主题 抽取 方 


LDA 是 一 种 非 监督 机 器 学 习 技 术 , 可 用 来 识别 大 
规模 文档 集 或 语料库 中 潜藏 的 主题 信息 。 采 用 词 袋 方 
法 ,将 每 一 篇 文档 视 为 一 个 词 频 向 量 ,从 而 将 文本 信息 
转化 为 了 易于 建 模 的 数字 信息 ”。 但 词 袋 法 未 考虑 
词 与 词 之 间 的 顺序 ,对 复杂 问题 的 学 习 效果 较 差 , 为 模 
型 的 改进 提供 了 契机 。 文 献 L21 -23 ] 等 已 有 研究 成 果 
均 证 实 BERT 模型 在 主题 抽取 中 的 应 用 研究 取得 了 更 
好 的 效果 ,主要 得 益 于 其 特征 表示 能 够 表征 上 下 文 语 
义 信息 ,可 解决 单词 收 义 \ 缺 失语 义 表 达能 力 等 问题 ， 
因而 经 过 预 训练 的 BERT 租 人 能 够 生成 更 有 意义 和 更 
连贯 的 主题 。BERT 结合 聚 类 的 模型 简单 JAE, PERE 
与 LDA 主题 模型 一 样 ,甚至 更 好 ,即使 在 主题 数量 相 
对 于 数据 集合 规模 较 大 的 情况 下 ,也 能 保持 较 高 的 主 
题 质量 。 

已 有 学 者 将 BERT 模型 与 LDA 主题 模型 相 结合 ， 
应 用 于 情感 分 析 、 文 本 分 类 、 机 器 翻译 等 领域 的 研究 ， 
鲜 有 利用 BERT 模型 结合 LDA 主题 模型 对 主题 聚 类 效 
果 及 其 结果 作 进一步 实证 并 验证 的 研究 。 在 技术 识别 
的 研究 领域 ,运用 LDA 主题 模型 识别 关键 技术 主题 的 
研究 颇 多 ,缺乏 为 弥补 LDA 主题 模型 难以 表征 上 下 文 
语义 信息 .单词 卜 义 、 缺 失语 义 表达 能 力 等 缺陷 的 相关 
研究 ,致力 于 优化 技术 识别 的 效果 。 笔 者 从 文本 内 容 
和 语义 关联 关系 出 发 ,融合 机 器 学 习 方法 ,提出 基于 
BERT-LDA 模型 的 关键 技术 识别 的 一 般 方法 ,并 以 农 
业 机 器 人 领域 的 专利 文献 为 数据 集 进行 实证 研究 ,使 


面 艇 应 用 已 经 取得 一 定 进展 。M.，Asgari-Chenaghlu 等 
基于 社交 网 络 数据 ,使 用 BERT 提供 不 同 语 境 信息 的 
HORZ ,后 借助 NoSQL, MongoDB 和 Neo4j 工具 增强 
主题 结果 的 可 视 化 效果 ,实现 社交 媒体 话题 的 实时 检 
W; L. Thompson 等 使 用 BERT 结合 聚 类 生成 的 主题 
与 LDA 主题 模型 相 比较 ,结果 表明 BERT 结合 聚 类 效 
果 更 好 ” A. Abuzayed 等 使 用 BERTopic 使 用 不 同 的 


用 主题 连贯 性 和 轮廓 系数 将 识别 效果 与 LDA TF-IDF、 
Word2 Vec 和 BERT 模型 相 比较 ,并 与 人 文本 挖掘 方法 
对 比 ,包括 专利 地 图 与 文本 聚 类 ,以 验证 BERT-LDA 模 
型 关键 技术 主题 识别 结果 的 有 效 性 。 进 一 步 将 本 研究 
识别 结果 与 4 中 国 制 造 2025》 重 点 领域 技术 路 线 图 中 
农业 装备 关键 共性 技术 清单 对 比 ,验证 关键 技术 判定 
结果 的 准确 性 。 本 研究 的 目的 在 于 提供 一 种 关键 技术 


预先 训练 的 阿拉 伯 语 模型 作为 租 入 ,并 将 其 结果 与 
LDA 和 NMF ( Non-negative matrix factorization ) 技术 进 
行 比较 ,结果 表明 AraBERT 具有 更 好 的 性 能 ” ; 付 前 
等 针对 短文 本 字数 受 限 导致 的 特征 稀 琉 和 语义 模糊 的 
问题 ,提出 一 种 基于 BERT-LDA 的 新 闻 短 文本 分 类 方 
法 ” ; 庄 穆 妮 等 为 实现 主题 细 粒 度 的 与 情 情感 演化 仿 
真 ,将 LDA 主题 模型 与 BERT 词 向 量 深度 融合 ,优化 主 
题 向 量 助力 文本 主题 案 类 “ ; 李 越 等 提出 了 一 种 融合 
主题 及 上 下 文 特征 的 汉 缅 双语 词汇 抽取 方法 ,有 效 利 
用 了 汉 缅 双语 主题 的 特征 信息 和 上 下 文 信息 ,进而 抽 
取 到 质量 更 高 的 双语 词汇 。 


主题 识别 的 一 般 方法 ,并 提高 识别 结果 的 客观 性 、 识 别 
结果 可 解释 性 和 精准 率 ;不 只 如 开 一 样 能 从 专利 文献 
中 识别 关键 技术 ,同样 适用 于 从 其 他 数据 库 和 出 版 类 
型 的 科技 文献 中 识别 关键 技术 , 且 可 以 对 同 语种 .不 同 
出 版 形式 的 科技 文献 的 技术 描述 文本 整合 后 进行 统一 
识别 ,从 而 大 大 提高 关键 技术 识别 的 召回 率 和 精准 率 ， 
提升 其 适用 性 。 


3 理论 与 方法 


利用 BERT-LDA 模型 识别 关键 技术 主要 包括 以 下 
过 程 :数据 集 构建 与 预 处 理 .BERT-LDA 文本 向 量化 表 
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AA hk sid 


示 \ 语 义 关联 聚 类 及 其 可 视 化 和 关键 技术 判定 4 个 系 


制定 论文 /专利 


选择 数据 来 源 ; 
论文 /专利 数据 库 


| 
A 
* 


| 统 流 程 ,具体 思路 如 图 1 所 示 : 


构建 BERT 
语义 特征 向 量 
论文 /专利 | 
文本 语料库 


特征 向 量 


1 基于 BERT-LDA 模型 的 关键 技术 识别 流程 


34. 数据 集 构建 与 预 处 理 
一 确定 检索 使 用 的 数据 库 ,根据 目标 构建 检索 式 , 获 
联 相应 技术 领域 的 文献 。 利 用 数据 库 提供 的 记录 导出 
F 或 ,提取 标题 ,摘要 .专利 号 .国际 专利 分 类 号 和 发 明 
从 竺 关键 信息 。 对 文本 内 容 进行 预 处 理 ,包括 分 词 处 
理 . 停 用 词 处 理 和 词 干 提取 等 。 笔 者 使 用 Python 中 的 
NETK 自然 语言 处 理 包 以 及 stop words 包 对 数据 进行 
Win, 
C BERT-LDA 文本 向 量化 表示 
SS 笔者 在 大 规模 无 标注 数据 集 上 训练 LDA 主题 特 
(ERE EEJ BERT 语义 特征 向 量 , 再 融合 生成 BERT-LDA 
SARL 
CSCI) Hp BERT 语义 特征 向 量 。 利 用 BERT 模型 
对 预 处 理 后 的 数据 进行 词 戏 入 ,构建 BERT 语义 特征 
jd. TE Transformer 编码 器 单元 中 ,利用 多 头 自 注意 
力 机 制 ( Multi-Head Attention) 处 理 后 得 到 向 量 , 经 过 残 
差 连接 和 归 一 化 层 , 再 通过 一 个 前 馈 网 络 和 残 差 网 络 ， 
提取 到 BERT 语义 特征 向 量 。 

将 分 词 后 的 文档 di 输入 模型 ,每 个 词 被 映射 成 3 
个 向 量 ; 设 定 wo ,p 分 别 为 BERT 模型 获取 文本 的 词 
向 量 文本 向 量 和 位 置 向 量 ,BERT 语义 特征 向 量 训练 
时 ,输出 任意 词语 的 N 维 向 量 表现 形式 。 将 BERT 语 
义 特征 向 量 du 定义 为 : 


d =1,(0 +0 +p) 


公式 (1) 

(2) 构 建 LDA 主题 特征 向 量 。LDA 是 一 种 包含 
词 .主题 和 文档 的 三 层 贝 叶 斯 概率 模型 ,其 降 维 思想 
为 :将 一 篇 分 词 后 的 文档 降 维 为 一 个 主题 分 布 (如 m 
个 特征 向 量 主题 ) ,根据 对 应 的 特征 向 量 中 的 相关 主题 
概率 (no 个 主题 的 概率 相 加 为 1 即 为 主题 分 布 ) 得 到 
对 应 的 文档 主题 。 


假设 文档 由 知 干 主题 组 成 , 则 主题 是 由 语料库 中 
的 所 有 特征 词 构成 。 设 文本 集 D 由 M 个 文档 组 成 , 文 
Fi d, 包含 5 个 句子 ,由 Ni 个 词组 成 ,w 表示 词 ,z 为 w 


所 属 的 主题 ,每 个 词 对 应 一 个 潜在 主题 。 公 式 定 义 如 
下 : 
D=|d, |ie|1,2,…,M|| 公式 (2) 
d,-ids|ielil2,-,S|| 公式 (3 ) 
wi= us pred 1,2, 5.44 公式 (4) 
z= fz; | je 11,25, M 公式 (5) 


LDA 主题 模型 的 联合 分 布 定义 为 : 

Plwi,zi,0;, Dla,B) = Ili P(w; | 9.) Plz; | 6,) 
- P(6, | œ) -P(P |B) 公式 (6) 

a 是 每 篇 文档 主题 先 验 分 布 的 超 参数 ,6; 为 参数 
a 的 Dirichlet 分 布 采样 ;B 是 每 个 主题 内 特征 词 先 验 分 
布 的 超 参 数 ,@ 为 参数 B 的 Dirichlet 分 布 采样 。 随 后 
利用 吉 布 斯 抽样 算法 进行 参数 估计 , 适 代 抽样 直到 收 
敛 。 模 型 训练 结束 输出 语料库 任意 文本 的 主题 分 布 矩 
阵 , 其 向 量 维度 与 BERT 语义 特征 向 量 维度 相同 。 主 
题 特征 向 量 由 每 个 主题 的 高 频 词 与 文档 的 余弦 距离 
计算 而 得 。 

(3) 向 量 拼接 。 由 此 ,Transformer 编码 器 学 习 并 存 
储 了 文档 d, 的 语义 关系 和 语法 结构 信息 ,采用 向 量 拼 
接 的 方式 ,将 BERT 语义 特征 向 量 与 LDA 主题 特征 向 
量 羡 加 一 起 ,形成 新 的 输入 向 量 , 既 包含 词义 特征 又 包 
含 整体 语义 特征 ,定义 为 d,: 

d, = iud, | 公式 (7) 

d, 表示 融合 BERT 语义 特征 向 量 与 LDA 主题 特 
征 向 量 的 文本 向 量化 表示 ，; ”为 向 量 拼 接 符号 。 
3.3 语义 关联 聚 类 及 其 可 视 化 

由 于 向 量 拼接 于 信息 稀 玻 的 高 维 空间 ,本 研究 利 
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用 自 编码 器 学 习 连 接 向 量 的 低 维 潜在 空间 表示 ,得 到 
具有 浓缩 信息 的 低 维 表示 。 在 潜在 空间 表示 上 使 用 聚 
类 算法 实现 语义 关联 么 类 ,并 从 聚 类 中 获得 上 下 文 主 
题 。 聚 类 的 目的 是 将 语义 和 主题 上 相似 的 语词 分 配 到 
单个 聚 类 中 。 最 小 平方 和 聚 类 算法 ( minimum square 
sum clustering, MSSC) 最 适合 于 大 数据 聚 类 ,最 具 代表 
性 的 是 用 于 聚 类 的 K-means 算法 。K-means 算法 是 一 
种 高 效 的 聚 类 算法 ,有 上 距离 平方 和 (SSD ) 的 目标 函数 
可 估计 得 到 的 聚 类 质量 ,其 只 有 一 个 参数 K 即 所 需 的 
Kk. SÜK 等 价 于 一 个 确定 主题 建 模 中 主题 数量 的 
参数 ,因此 从 主题 建 模 到 K-means 有 一 个 自然 的 联系 。 
K-means 具有 以 下 特点 :简单 高效、 参数 数量 最 少 ,不 
需要 初步 计算 距离 矩阵 ,可 能 进行 大 数据 处 理 等 优点 ， 
送 使 得 K-means 在 解决 各 种 NLP 任务 时 成 为 对 上 下 文 
停 篇 的 嵌入 进行 聚 类 的 最 佳 选择 , 故 本 研究 采用 K- 
meEauis 算法 。 

绢 类 时 需 提前 确定 绢 类 秘 数 量 , 即 KX 值 ,笔者 利用 
困惑 度 (permplexity ) 确定 最 优 主 题 数 。 困 惑 度 随 着 主题 
数 匣 的 增加 而 递减, 当 有 曲线 趋 于 平缓 时 的 主题 数 即 可 
多 最 优 的 主题 数量 。 将 每 个 主题 下 概率 排名 较 高 的 


(PP 


ise PI ULICA NT JA H HEA 10 的 主题 词 及 
FEBR f Jti Ub JAE EER 


Al 
CN 


S 通过 构建 BERT-LDA 关键 技术 识别 模型 ,能 够 充 

分 闭合 上 下 文 语义 信息 ,弥补 LDA 主题 模型 的 劣势 ， 
训 幼 出 更 优 的 主题 向 量 ,得 到 具有 更 好 细 粒 度 和 聚 类 
精准 度 的 关键 技术 识别 效果 。 
4 实证 研究 

以 专利 文献 为 例 进行 数据 收集 与 处 理 ,借助 国际 权 
威 的 德 温 特 专利 数据 和 TI 专利 分 析 软 件 的 强大 主题 识 
别 功能 ,将 本 研究 的 关键 技术 识别 结果 分 别 与 TE 专利 
分 析 的 主题 识别 结果 和 《中 国 制造 2025》 重 点 领域 技术 
路 线 图 中 农业 装备 关键 共性 技术 清单 进行 比 对 ,验证 
BERT-LDA 模型 关键 技术 识别 的 精准 率 和 召回 率 。 
4.1 数据 收集 及 预 处 理 

选取 德 温 特 专利 数据 库 中 农业 机 器 人 领域 专利 作 
为 数据 样本 ,在 文献 调研 和 专家 知识 的 基础 上 ,最 终 确 
定 农业 机 器 人 领域 专利 的 检索 式 :((TS = (agricultur * 
or crop or crops or fruit or fruits or vegetable * or harvest * 
or seedling * ) )or (MAN = (X25 - N = or X22 - XII 
or X22 — P09 or Q19 — G or TO6 - DOI * or AI2 — 
WO4 * or X25 — X02 « )) or (IP - (AOIB * or AO1C » 
or AO1D * or AOIF * or AOIG * or AOIM — 021 * ))) 


Bi 


AND ((TS = (robot * or manipulator * or " mechanical 
arm" or " mechanical arms" or " mechanical hand" or " me- 
chanical hands" ) ) or IP = (B25J « ) or (MAN = (X25 - 
AO03E: or T06 - DO7B * or VO3 — Ul4 * or V04 — 
M30R * or VO4 — Q30R * or V06 — U05 * or V04 — 
ROAFl * or X27 — Ux or S05 — B07 * )) not (IP = 
(AOLG — 005 * or AOIG — 023 * )) or (MAN = ( X25 
- NO2 * or TO6 — D0LC) ))。 检 索 数 据 履 盖 范 围 为 
2020 年 12 月 6 日 前 公开 的 所 有 农业 机 器 人 专利 文献 。 
对 数据 进行 处 理 和 筛选 后 共 获取 专利 8 957 (E, 提取 
专利 号 /申请 号 .DWPI 标题 DWPI 摘要 、 国 际 专利 分 
类 号 IPC .申请 日 等 相关 信息 ,完成 数据 收集 。 

对 数据 进行 预 处 理 ,具体 过 程 如 下 :对 DWPI 摘要 
文本 进行 数据 清洗 ,去 除 摘要 缺失 的 共 获 取 专 利 8 912 
件 ; 进 行 分 词 ,过 滤 标 点 与 数字 ,同时 进行 去 噪 处理 , E 
要 包括 :小 写 转化 .拼写 检查 更 正 、 单 复数 统一 、 同 义 词 
合并 全称 和 缩写 ,去 除 停 用 词 (如 a,for SE) 专 有 描述 
词 ( 如 comprise ,involve 等 ) .学 术 词 汇 ( 如 novelty ,use， 
advantage 等 ) .出 现 频率 高 但 对 具体 关键 技术 识别 结 
果 没 有 意义 的 领域 高 频 干 扰 词 (如 robot, agriculture 
等 ) ,以 及 提取 词 干 等 数据 预 处 理 操 作 。 

4.2 BERT-LDA 模型 识别 结果 与 分 析 

为 增强 BERT 模型 对 本 研究 问题 的 适应 性 ,基于 
GOOGLE 的 BERT 基本 预 训练 模型 ,利用 农业 机 器 人 
专利 摘要 语料库 对 预 训 练 的 BERT 语言 模型 进行 微 
调 , 其 中 向 量 租 入 维度 是 768 维 ,得 到 改进 后 的 BERT 
预 训练 模型 。 随 后 利用 改进 的 BERT 预 训练 模型 和 
LDA 主题 模型 对 清洗 后 的 DWPI 摘要 训练 向 量 并 将 其 
EMB, 紧 接 着 聚 类 生成 农业 机 器 人 领域 的 关键 技 
术 主 题 。 利 用 困惑 度 的 变化 估计 最 优 的 农业 机 器 人 关 
键 技术 主题 数量 。 困 惑 度 随 主题 数量 的 变化 情况 如 图 
2 所 示 。 当 主题 数 取 10 时 ,BERT-LDA 模型 的 困惑 度 
值 趋 于 稳定 , 故 选 择 主题 数 为 K =10。 
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2 困惑 度 随 主题 数量 的 变化 情况 
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数据 降 维 可 视 化 最 新 工具 UMAP ( Uniform Mani- 
fold Approximation and Projection ) 在 可 视 化 质量 方面 保 
留 了 更 多 的 全 局 结构 ,具有 优越 的 运行 性 能 和 可 扩展 
$k, RH UMAP 降 维 工具 对 BERT-LDA 模型 识别 
出 的 关键 技术 主题 进行 可 视 化 , 聚 类 结果 如 图 3 所 示 。 
识别 出 的 10 个 主题 分 布 明 确 , 类 内 具有 较 高 的 连贯 性 
与 一 致 性 ,表明 BERT-LDA 模型 的 聚 类 效果 颇 佳 。 

在 BERT-LDA 模型 识别 出 农业 机 器 人 技术 领域 的 
10 个 关键 技术 主题 的 基础 上 ,选取 每 个 主题 下 概率 
TOP50 主题 词 进行 可 视 化 分 析 ,来 确定 关键 技术 主题 
内 容 , 绘 制 的 10 个 关键 技术 主题 词 云图 如 图 4 所 示 。 
对 应 的 BERT-LDA 模型 下 每 个 主题 排名 前 10 的 特征 
词 及 其 概率 分 布 见 表 1 。 
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图 4 BERT-LDA 模型 下 农业 机 器 人 的 关键 技术 主题 


基于 BERT-LDA 模型 识别 出 Topicl-TopiclO 关键 
技术 主题 ,为 农业 机 器 人 技术 领域 中 出 现 概率 较 高 的 
特征 词 构 成 的 集合 ,每 个 主题 Topic 均 可 视 为 该 领域 中 
的 一 个 研究 热点 。 从 表 1 各 主题 下 的 特征 词 即 可 知 该 

领域 的 研究 热点 。 

Topicl 中 的 TOPIO 主题 词 为 connect , pick , collect , 
arm „automatic 等 特征 词 。 结 合 农 业 机 器 人 技术 领域 的 
国际 专利 分 类 号 及 德 温 特 手工 代码 ,明确 该 主题 对 应 
农业 机 器 人 领域 的 "用 于 采摘 的 自动 装置 " 关键 技术 。 
通过 对 检索 结果 进行 文本 分 析 ,进一步 验证 其 准确 度 。 
如 江苏 大 学 的 CN101273688-A 专利 ,为 橘子 采摘 机 器 


» cluster 0: 14.4396 
» cluster 1: 6.9696 
* cluster 2: 9.33% 
* cluster 3: 6.0996 
» cluster 4: 9.27% 
* cluster 5: 12.79% 


* cluster 6: 12.1896 

* cluster 7: 9.4196 
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3 基于 UMAP 的 二 维 聚 类 可 视 化 
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词 云图 


人 设计 的 柔性 采摘 装置 ,具体 采用 双眼 立体 视觉 系统 
连接 主 计算 机 和 工作 控制 机 ,通过 运动 控制 卡 控制 机 
械 辟 和 终端 执行 器 的 关节 。 在 该 专利 的 题名 与 摘要 中 
出 现 了 pick arm 与 motor 等 特征 词 ,与 本 研究 的 识别 
结果 一 致 。 如 日 本 井 关 农机 的 JP2008206438-A 、 中 
农业 大 学 的 CN101356877-A 专利 西北 农林 科技 大 学 
的 CN202232196-U 等 专利 。 

Topic2 中 的 TOPIO 主题 词 为 position , signal , direc- 


tion „distance 等 特征 词 ,同样 的 方法 对 应 为 领域 的 “ 目 
标的 位 置 探测 与 定位 ”关键 技术 。 如 瑞典 胡 斯 华纳 的 


EP3346348-A1 专利 ,用 于 引导 机 器 人 园艺 工具 的 方法 ， 
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表 1 BERT-LDA 模型 下 农业 机 器 人 的 关键 技术 特征 词 及 其 概率 统计 


主题 编号 属于 该 主题 的 高 概率 特征 词 

Topicl connect(0.140 2) , fruit(0. 128 7) , pick(0.091), harvest (0.074 8) , arm (0.063 2) , mechanism(0.061 6), automatic (0. 059 2), control 
(0.055) , collect(0. 053 7), motor(0. 052 9) 

Topic2 sensor(0.239 6) , position(0. 103 4) , device(0. 084 6) , signal(0. 083 6) , direction( 0.065 4) , navigation (0.061 7) , boundary (0. 058 8), 
distance(0. 046) , detect(0. 045 3) , data(0. 038 6) 

Topic3 vehicle (0. 126 2) , control (0. 124 9) , unit(0. 102 9) , autonomous (0. 090 6) , drive(0. 063) , wheel(0. 061 7) , direction (0. 059 4) , motor 
(0.055 8) , path(0. 055 1) , position(0. 055 1) 

Topic4 method(0. 131) , vehicle(0. 101 1) , autonomous(0. 078 5) , area(0.075 7) , path(0. 069 3) ,unmanned(0. 067 1) , navigate(0. 064 1) , mo- 
bile(0.059 7) , signal(0. 058 8) , system(0. 057 3) 

Topic5 seedling(0. 144 9) , mechanism(0. 114) , fix(0.100 5) , transplant(0.095 5) , arm(0.077 8) ,manipulate(0.069 8) , plant(0.054 1) , convey 
(0.052) , end(0. 051 5), transmission (0.045 1) 

Topic6 control(0.149 1) , connect(0.093 3) , finger(0.078 1) , module(0.071 3) , end(0. 069 5) ,device(0.067 2) , remote(0. 060 3) , manipulator 
(0.058 5) , sensor(0.055 6) , unit(0.055) 

Topic7 graft(0. 125 4) , eut(0. 118) , plant(0. 106 1) , transplant(0. 088 9) , part(0. 085 8) , hand (0. 057 8) , hypocotyl (0. 054 8) , supply (0. 053 
5), seedling(0. 051 5) , position(0. 050 7) 

Topic8 lawn(0. 180 5) , mower(0. 097 6) , method (0. 089 1) , unit(0. 087 1), system (0. 064 3) , area(0. 063 3) , sensor(0. 056 4) , signal (0. 053 
5) , lawnmower(0. 046 5) , tool (0. 044 8) 

l'opic9 water(0. 148 8) , irrigation(0. 092 1) , storage(0. 089 4) , box(0. 082 1) , device(0. 074 1) , plant(0. 073 5) , pipe(0.057 4) , tank(0.056 2) , 


automatic(0. 051 6) , fruit(0. 048 2) 


opic10 
054 3) , branch(0. 046 6) 


注 : 主题 内 容 栏 中 的 结构 为 特征 词 (概率 分 布 ) 

VAAT JAGU ERE E 的 机 器 割 草 机 预定 位 
置 y 具 体 涉 及 由 机 器 人 园艺 工具 在 不 同 距离 的 引导 线 
践 综 做 信号。 在 该 专利 的 题名 与 摘要 中 出 现 了 position, 
signal 与 distance 等 特征 词 ,与 本 研究 的 识别 结果 一 致 。 
本 领域 综合 实力 排名 靠 前 的 美国 约翰 迪 尔 .LG 电子 公 
动 朋 本 洋 马 等 在 农业 机 器 人 的 “目标 的 位 置 探测 与 定 
位 8 堵 术 领域 也 有 一 定 的 站 位 , 如 美国 约翰 迪 尔 的 
US2011295424-A1 专利 .LG 电子 公司 的 KR2015125508-A 
TH. 日 本 洋 马 的 JP2020119595-A 专利 等 。 

— Topic3 中 的 TOP10 主题 词 为 vehicle control „drive, 
direction 等 特征 词 ,同样 的 方法 对 应 为 领域 的 “转向 控 
制 " 关 键 技 术 。 如 日 本 井 关 农机 的 JP2020166534-A 专 
利 ,是 农业 机 器 人 拖拉 机 等 工作 车 辆 ,其 控制 器 配置 为 
当 转 弯路 线 连接 的 直线 前 进 路 线 之 间 的 距离 超过 预定 
距离 时 ,选择 两 轮 驱 动 模式 。 该 专利 在 题名 与 摘要 中 
出 现 了 vehicle, control 与 drive 等 特征 词 ,与 本 研究 的 
识别 结果 一 致 。 本 领域 综合 实力 TOP 排名 专利 权 人 
德国 博世 日 本 洋 马 .美国 约翰 迪 尔 等 在 “转向 控制 ” 
技术 领域 的 专利 占有 重要 份额 , 如 德国 博世 的 
DE102007023157-Al 专利 、 日 本 洋 马 的 JP2019061695- 
A 专利 .美国 约翰 迪 尔 的 US2012085458-A1 专利 等 。 

Topic4 中 的 TOP10 主题 词 为 method , autonomous , 
path „navigate 等 特征 词 ,同样 的 方法 对 应 为 领域 的 “ 自 
主导 航 与 路 径 规划 ”关键 技术 。 如 瑞典 胡 斯 华纳 的 


cut(0.134 9) , pruning(0.108 5) , rod(0.098), trim(0.077 5) , machine(0.075) ,end(0.074 2) , clip(0.061 4) , tree(0.056 4) , plate(0. 


SE201650022-A1 专利 ,是 自 航 机 器 人 工具 导航 方法 ， 
根据 第 一 ` 二 信号 路 径 的 分 离 距 离 和 路 径 长 度 差 ,计算 
从 基站 到 机 器 人 工具 的 方位 代表 值 。 该 专利 在 题名 与 
摘要 中 出 现 了 method navigate 与 path 等 特征 词 ,与 本 
研究 的 识别 结果 一 致 。 农 业 机 器 人 领域 综合 实力 TOP 
排名 的 德国 博世 . IROBOT 公司 .美国 约翰 迪 尔 等 在 农 
业 机 器 人 的 “自主 导航 与 路 径 规划 ”技术 领域 的 专利 
占有 重要 份额 ,如 德国 博世 的 DE102011003064-A1 专 
AI IROBOT 公司 的 US2018116105-A1 专利 .美国 约翰 
迪 尔 的 US2010094499-A1 专利 等 。 

同 理 可 推出 Topic5-Topic10 的 主题 分 别 对 应 农业 
机 器 人 领域 的 “种 苗 的 移 栽 机 械 ”“ 机 械 手 的 控制 装 
置 “ 嫁 接 "“ 制 草 机 ”灌木 装置 和 修剪 "“ 整 校 或 立木 
打 枝 工具 ” ,具体 关键 技术 主题 名 称 如 表 2 所 示 : 

R2 农业 机 器 人 的 关键 技术 主题 名 称 


Bi 


主题 关键 技术 主题 名 称 
Topicl 用 于 采摘 的 自动 装置 
Topic2 目标 的 位 置 探测 与 定位 
Topic3 转向 控制 
Topic4 自动 导航 与 路 径 规划 
Topic5 用 于 种 苗 的 移 栽 机 械 
Topic6 机 械 手 的 控制 装置 
Topic7 嫁接 
Topic8 割 草 机 
Topic9 灌木 装置 
Topic10 修剪 整枝 或 立木 打 校 工具 
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4.3 ”关键 技术 判定 

利用 BERT-LDA 模型 识别 出 的 农业 机 器 人 TOP 
三 大 关键 技术 为 :末端 执行 器 .目标 的 探测 与 定位 技术 
和 自动 导航 与 路 径 规划 技术 。 

(1) 末 端 执行 器 。 综 合 topicl ,topic5 ,topic6 ,topic7 
和 topiclO 中 的 特征 词 ,可 知 “末端 执行 器 "技术 是 农业 
机 器 人 领域 的 关键 技术 之 一 。 末 端 执 行 器 一 般 由 机 械 
装置 和 传感器 组 成 ,主要 包括 机 器 人 抓 手 、 碰 撞 传 感 
器 旋转 连接 器 、 压 力 工具 等 ,作用 于 采摘 、 移 栽 .喷雾 
等 农业 生产 作业 过 程 。 由 于 农业 机 器 人 作业 环境 和 目 
标 具 有 复杂 性 和 特殊 性 ,末端 执行 器 的 设计 需 充 分 考 
虑 其 特性 ,以 保证 作业 质量 。 需 要 重视 末端 执行 器 的 
创新 设计 ,提升 其 通用 性 .精确 性 灵活 性 及 可 控 性 。 
一 (2) 目 标的 探测 与 定位 技术 。 整 合 topic2 .topic5 
和 Kapic7 中 的 特征 词 ,可 知 “ 目 标的 探测 与 定位 "技术 
是 狗 业 机 器 人 领域 的 关键 技术 之 一 。 农 业 机 器 人 对 作 
炉 莘 标的 精准 识别 及 定位 是 其 开展 作业 的 前 提 , 目 前 
控 允 采用 机 器 视觉 技术 , 它 是 人 类 研究 较 早 的 一 种 环 
境 感 知 技术 ,最 早起 源 于 美国 。 由 于 作业 过 程 中 光照 
各 .目标 遮挡 ,个 体 差异 等 问题 的 存在 ,目标 的 探测 
与 冠 位 技术 仍 需 进一步 发 展 与 完善 。 在 未 来 的 研究 
号 通过 将 机 器 视觉 技术 与 其 他 技术 相 融 合 ,改进 图 像 
获 陪 和 图 像 处 理 算法 ,提高 目标 探测 及 定位 的 准确 性 
和 精准 度 。 
><(3) 自动 导航 与 路 径 规划 技术 。 整 合 topic3 top- 
icd dopic& 和 topic? 中 的 特征 词 ,可 知 “自动 导航 与 路 
径 规划 ”技术 是 农业 机 器 人 的 关键 技术 之 一 。 农 业 机 


境 信 息 和 目标 位 置 ,做 出 行动 路 径 规划 ,并 在 无 人 干涉 
的 情形 下 ,自主 移动 到 预定 的 位 置 ,目前 主要 采用 视觉 
导航 和 以 其 为 主 的 组 合 导航 方法 。 农 业 机 器 人 在 执行 
作业 过 程 中 ,由 于 作业 环境 的 复杂 性 ,作业 目标 分 布 的 
随机 性 及 动态 情况 的 不 可 预知 性 等 问题 ,对 自动 导航 
与 路 径 规 划 提 出 了 更 严格 的 要 求 。 
4.4 识别 结果 检验 

笔者 利用 主题 建 模 的 连贯 性 和 聚 类 的 轮廓 系数 检 
验 BERT-LDA 模型 的 识别 效果 。 主 题 连贯 性 (CV Co- 
herence ) 基于 滑动 窗口 ,对 主题 词 进行 one-set 分 割 ( 一 
个 set 内 的 任意 两 个 词组 成 词 对 进行 对 比 ) ,并 使 用 归 
一 化 点 态 互信 息 和 余弦 相似 度 间接 获得 连贯 度 , 用 于 
衡量 同一 主题 内 的 特征 词语 义 是 否 连贯 ,其 取 值 范围 
为 [0,1]。 轮 廓 系数 (Silhouette Score) 是 测量 类 内 一 致 
性 的 指标 ,用 于 评价 模型 聚 类 效果 的 好 坏 ,其 取 值 范 围 


为 | -1,1]。 连 贯 度 和 轮廓 系数 数值 越 高 意味 着 模型 
效果 越 好 。 基 于 农业 机 器 人 领域 德 温 特 专利 摘要 数据 
集 ,对 比 5 种 不 同方 法 的 主题 模型 的 关键 技术 识别 情 
况 ,结果 如 表 3 所 示 。 进 一 步 对 比 二 维 聚 类 可 视 化 效 
果 , 结 果 如 图 5 所 示 。 

表 3 5 种 主题 建 模 方法 的 关键 技术 识别 效果 对 比 


模型 评估 系数 LDA 


TF-IDF Word2Vec BERT BERT-LDA 


主题 连贯 性 0.458 0.478 0.481 0.453 0. 508 
轮廓 系数 / 0. 006 0.071 0.054 0. 150 


由 表 3 和 图 5 可 知 ,BERT-LDA 模型 的 主题 连贯 
性 数值 为 0.508 ,其 他 4 种 方法 的 数值 均 低 于 0.5 ,可 
见 BERT-LDA 模型 的 识别 结果 在 同一 主题 内 的 特征 词 
具有 更 好 的 连贯 性 ,有 效 提高 了 识别 结果 的 可 解释 性 。 
由 轮廓 系数 及 二 维 聚 类 可 视 化 图 比较 模型 的 聚 类 效 
果 ,BERT-LDA 模型 的 轮廓 系数 为 0. 15 ,二 维 聚 类 可 视 
化 图 中 显现 出 各 主题 类 间 划 分 明确 ,反观 其 他 3 种 方法 
轮廓 系数 的 最 高 数值 仅 有 0. 071 ,各 主题 类 间 多 有 重合 ， 
难以 辨析 各 主题 类 间 的 边缘 。 对 比 结果 表明 ,基于 
BERT-LDA 模型 的 关键 技术 识别 的 聚 类 效果 明显 提高 。 

德 温 特 创 新 平台 TI 是 全 球 权 威 可 靠 的 专利 数据 和 
专利 分 析 平 台 , 具 备 强大 的 智能 检索 、 分 析 ` 预 警 和 海量 
文献 图 像 化 功能 ,协助 组 织 建立 跨 部 门 的 专利 技术 情报 
搜集 与 分 析 能 力 ,为 用 户 提供 更 广泛 视角 的 技术 信息 来 
源 。 它 收录 了 全 球 156 个 国家 /地 区 的 专利 信息 ,涵盖 
全 球 75 个 国家 /地 区 的 专利 全 文 ,并 通过 人 工 的 方法 把 
收集 的 不 同 语种 的 专利 文献 的 摘要 统一 用 英文 并 用 自 
然 语言 进行 改写 ,避免 了 专利 文献 检索 分 析 的 路 语言 障 
TERCER AR EEE) Bd EE ER oc [8 3. TE 成 为 目前 全 球 
权威 高 端的 专利 技术 识别 工具 。 由 于 德 温 特 创新 平台 
是 商业 数据 库 , 其 文本 挫 掘 的 后 台 算 法 属 商业 机 密 ,无 
法 公开 获取 ,无 法 从 其 算法 层面 进行 描述 对 比分 析 , 只 
能 从 识别 结果 进行 对 比分 析 。 因 此 ,笔者 将 实证 结果 与 
基于 德 温 特 TI 专利 分 析 软 件 的 专利 分 析 结 果 进 行 比 
对 ,以 检验 笔者 提出 的 BERT-LDA 模型 识别 关键 技术 方 
法 的 可 行 性 与 有 效 性 ,以 及 识别 的 精准 率 和 召回 率 。 

专利 地 图 将 专利 文献 以 图 像 化 的 方式 表现 出 技术 
主题 的 全 景 ,其 中 开 专 利 分 析 中 的 文本 聚 类 将 专利 文 
献 自 动 分 类 成 多 个 肾 类 簇 ,输出 文本 聚 类 列表 。 基 于 
上 述 检索 式 ,绘制 农业 机 器 人 领域 的 TI 专利 地 图 如 图 
6 所 示 ,图 中 山峰 海拔 高 度 代 表 特 定 主题 文献 的 密度 
大 小 。 在 同样 的 数据 检索 范围 内 ,将 TE 专利 分 析 的 主 
题 文本 聚 类 结果 与 BERT-LDA 模型 识别 结果 进行 对 
kk ,结果 见 表 4。 
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X4 BERT-LDA 模型 与 TI 文本 聚 类 下 农业 机 器 人 关键 技术 主题 内 容 对 比 


BERT-LDA TAKEX 
序号 
主题 内 容 主题 特征 词 主题 内 容 主题 特征 词 
1 于 采摘 的 自 connect , fruit , pick , harvest, arm, mechanism , automatic, ”果蔬 采摘 装置 pick, fruit, mechanical, vegetable , system , platform, ro- 
动 装 置 control , collect ,motor bot ,sort ,belt ,convey 
2 目标 的 位 置 探 sensor,position, device, signal, direction , navigation , da- 目标 的 位 置 探 ” object,target, location , signal, point, position, image , de- 
测 与 定位 ta , boundary , distance , detect , 测 与 定位 tection , data ,mobile 
3 自动 导航 与 路 method, vehicle , autonomousarea , path, unmanned , navi- 自动 导航 与 路 information, vehicle , work, navigate , path, data, device, 
径 规划 gate ,mobile ,signal ,system 径 规划 autonomous , mobile ,line 
4 于 种 茵 的 移 seedling, mechanism, fix, transplant, arm, manipulate, Ph FER EL seedling, finger, transplant, fruit, pick, graft, scion, 
栽 机 械 plant ,convey ,end ,transmission stock ，plug ,transplant ,plant 
机 械 手 的 控制 control, connect ,finger , module , end , device ,remote,ma- ”机械手 的 控制 ”end, rod, connect rod, module, system, control, pick, 
装置 nipulator , sensor , unit 装置 fruit ,mechanical ,remote 
6 嫁接 graft, cut, plant, transplant, part, hand ,hypocotyl,supply, ”嫁接 cut , cutter , tap , graft, rubber, glue , tool, barrier, tree , har- 
seedling , position vest 
7 割 草 机 lawn ,mower, method, unit, system, area, sensor, signal, 割 草 机 robotic ,mow ,mower ,tool ,work ，mow robot, vehicle, mo- 
lawnmower,tool bile ，lawnmower ,autonomous 
灌木 装置 water, irrigation, storage, box, device, plant, pipe, tank, 灌木 装置 water ,tank , pipe , irrigation , rod , plate , arm , mechanical , 


automatic , fruit 


木 打 枝 工具 branch 
转向 控制 


tion , motor, path , position 


YS 
> 
x. 修剪 、 整 枝 或 立 
< 二 
e 
eo 


mz E 


cut, pruning , rod, trim, machine, end, clip, tree, plate, 


vehicle, control, unit, drive, autonomous, wheel, direc- 


system , area 


修剪 ,整枝 工具 


prune , arm, hydraulic , climb, tree, robot, pair, connect 
rod, garden , trim , green 
液体 喷雾 设备 spray , pesticide , medicine , plate , slide , stir ,arm , mechan- 


ical,tree, plant 


e 关键 技术 主题 识别 结果 内 容 一 致 性 90% 


CD 结合 图 6 和 表 4 可 知 ,T 专利 分 析 结果 显示 :农业 
DERA ULT Top10 关键 技术 主题 归纳 为 果蔬 采摘 装 
狂 标 的 位 置 探测 与 定位 自动 导航 与 路 径 规划 、 插 
种 < 移 栽 装 置 机 械 手 的 控制 装置 嫁接. 制 草 机 灌木 
装置, 修剪 ,整枝 工具 和 液体 喷雾 设备 ,与 笔者 提出 的 
方 请 识别 结果 对 比 , 关 键 技术 主题 识别 结果 的 内 容 一 
致 性 高 达 90% ,充分 证 实 了 BERT-LDA 模型 识别 关键 
KRUJA UE > IER 4 进一步 深入 对 比 BERT-LDA 
19000 TE 专利 分 析 文本 来 类 的 主题 特征 词 ,由 于 
BERT-LDA 模型 考虑 了 文本 的 语义 和 上 下 文 信息 , 识 
别 出 的 各 主题 下 的 特征 词 表现 出 具有 更 好 的 语义 连贯 
性 ,提高 了 识别 结果 的 可 解释 性 ,确保 了 BERT-LDA 模 
型 在 关键 技术 识别 时 具有 高 的 精准 率 和 召回 率 。 

对 比 国家 制造 强国 建设 战略 咨询 委员 会 组 织 编制 
的 重点 领域 的 技术 路 线 图 即 “ 中 国 制造 2025》 重 点 领 
域 技术 路 线 图 ” ,其 中 涉及 农业 装备 的 机 器 人 末端 执行 
器 ,可靠 性 试验 方法 ,检测 控制 技术 、 传 感 器 等 相关 技 
术 , 进 一 步 验 证 了 本 研究 关键 共性 技术 识别 结果 与 实 
际 情况 的 吻合 性 。 


5 研究 结论 与 展望 


笔者 提出 的 基于 BERT-LDA 模型 的 关键 技术 识别 
方法 ,其 有 效 性 在 主题 连贯 性 、 轮 廓 系数 及 二 维 聚 类 可 


视 化 效果 方面 都 得 到 验证 。 以 农业 机 器 人 技术 领域 专 
利 数据 为 例 进行 实证 ,通过 与 TI 的 专利 地 图 和 文本 聚 
类 方法 以 及 《中 国 制造 2025》 重 点 领域 技术 路 线 图 中 
农业 装备 关键 共性 技术 清单 进行 对 比分 析 , 验证 
BERT-LDA 模型 识别 关键 技术 的 精准 率 和 召回 率 。 同 
时 ,克服 了 TI 专利 分 析 软 件 的 主题 识别 方法 只 限 应 用 
于 德 温 特 专利 文献 .不适 于 也 不 能 同时 应 用 于 非 专利 
文献 的 技术 主题 分 析 的 缺陷 。 
5.1 研究 结论 

实证 结果 表明 :与 现 有 的 LDA ,TF-IDF ,Word2 Vec , 
BERT 模型 相 比 ,BERT-LDA 模型 可 充分 考虑 文本 的 语 
义 信 息 和 上 下 文 信息 ,与 LDA 主题 模型 相 融 合 ,可 明 
显 提高 关键 技术 识别 时 主题 的 连贯 性 及 细 粒 度 划 分 的 
精准 度 。 与 国际 权威 的 TI 专利 分 析 主 题 聚 类 结果 对 
比 ,BERT-LDA 模型 在 识别 关键 技术 时 同样 具备 很 好 
的 识别 精准 率 和 召回 率 。 经 本 方法 进行 关键 共性 技术 
判定 得 到 末端 执行 器 .目标 的 探测 与 定位 .自动 导航 与 
路 径 规划 技术 ,与 《中国 制造 2025》 重 点 领域 技术 路 线 
中 农业 装备 的 关键 共性 技术 清单 结果 相 比 较 , 识 别 
结果 相 一 致 ,验证 了 本 研究 关键 共性 技术 识别 结果 的 
准确 性 。 

BERT-LDA 模型 用 于 关键 技术 识别 时 ,不 仅 能 适 
应 专利 文献 ,同样 适用 于 期 刊 论文 .会 议 文献 .学 位 论 
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文 .研究 报告 等 不 同 出 版 类 型 的 技术 文献 。 需 要 时 可 
将 同 语种 的 不 同 数据 库 的 文献 进行 整合 ,如 将 WOS、 
EBSCO „Science Direct IEEE 等 不 同 数 据 库 中 的 技术 文 
献 的 摘要 进行 整合 后 分 析 , 利 用 BERT-LDA 模型 在 技 
术 领 域 的 全 部 技术 出 版 物 中 进行 统一 检索 和 关键 技术 
识别 ,在 确保 识别 精准 率 的 前 提 下 可 大 大 提高 关键 
术 识 别 的 召回 率 。 与 现 有 的 模型 相 比 , BERT-LDA 模 
型 在 关键 技术 识别 时 具有 和 较 好 的 包容 性 与 兼容 性 , 适 
应 性 强 。 
5.2 研究 展望 

为 了 与 国际 权威 的 TI 分 析 结 果 进 行 比 对 ,笔者 先 
择 了 与 TI 相同 的 数据 集 进行 训练 和 实证 ,数据 来 源 于 
德 温 特 数据 库 中 专利 文献 DWPI 摘要 文本 。 缺 少 对 其 
刊 论文 .会议 论文 研究 报告 等 多 源 科技 文献 的 整合 ， 
在 形 来 的 研究 中 ,将 利用 BERT-LDA 模型 整合 不 同 数 
据 重 ,不 同 出 版 类 型 的 文献 数据 集 进行 研究 ,以 实现 更 
伟 遂 的 关键 共性 技术 识别 。 为 提高 主题 分 析 及 文本 聚 
的 效果 ,将 在 数据 收集 及 预 处 理 环节 做 更 多 的 优化 ， 
人 包 揪 数据 清洗 停 用 词 扩充 、 词 干 提取 等 。 为 进一步 提 
FEBERT-LDA 模型 关键 技术 识别 结果 的 可 解读 性 ,可 
BEILA SAO 结构 ,以 将 语词 之 间 的 关系 具体 化 为 某 
作 寞 术 方 面 的 “问题 "和 “解决 方案 ”及 其 之 间 的 对 应 
关 康 ,进一步 提高 模型 的 识别 结果 的 可 解释 性 。 后续 
研究 中 也 将 考虑 在 此 基础 上 进一步 结合 专家 调查 与 指 
棕 河 佑 等 方法 对 关键 共性 技术 的 判定 做 进一步 的 改善 
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The Key Technology Identification Method Based on BERT-LDA and Its Empirical Research: 
A. Case Study of Agricultural Robots 
= Wang Xiuhong'^ Gao Min! 
> ' Institute of Science and Technology Information, Jiangsu University, Zhenjiang 212013 

EU * Jiangsu University Library, Zhenjiang 212013 
"T Abstract: | Purpose/significance | A good key technology identification method can provide better support for 
technology identification, prediction and research and development at all levels. | Method/process | In this pa- 
«per, a key technology identification method based on Bert-LDA was proposed, which combined BERT and LDA to 
Cnàke up for the lack of contextual semantic information in a single LDA topic model. An empirical study was carried 
with agricultural robots as an example. Specifically, it included the following processes: (D Constructing BERT 
CSemantic feature vector and LDA topic feature vector based on Python, combining them in a high-dimensional space, 
Gy learning the low-dimensional latent space representation of the concatenated vector by using an autoencoder; (2) 
the potential space representation, K-means algorithm was used to realize semantic association clustering, and the 
Pu ect diagram of two-dimensional clustering and key technology subject word cloud maps were drawn ; (3) Determining 
y technologies; (4) In the field of agricultural robots, the effectiveness of this method was demonstrated by compa- 
"ring with the results of TI patent analysis and the list of key generic technologies for agricultural equipments in the 
(Made in China 2025 ” technology roadmap for key areas. | Result/conclusion | The results show that the Bert-LDA 
model improves the coherence of topic clustering and the accuracy of fine-grained classification. With a good key 
technology identification accuracy and recall rate, there are good inclusiveness, compatibility and adaptability to the 
identified literature data sets of different databases and publishing types. It can be widely used to identify all kinds of 

key technologies. 


Keywords: key technology identification agricultural robots BERT-LDA model Derwent patents 


125 


